NG高分 | 栽培花生二倍体祖先种
第四章 豆科
地表最强植物基因组文献解读,正在继续。科技君和小伙伴们特地对植物基因组领域已发的180多篇高质量文章进行收集、解读和归类,经归纳整理后共分十章,前九章为相关领域已发表物种文献解读,最后一章为植物基因组未来发展趋势及预测。
第四章往期回顾
花生在如今是一种随处可见的坚果,但在乾隆末年花生还是专属贵族的食物,寻常百姓家很难吃到。直到100年后,受到西方国家的影响,使用红薯和花生轮作,这才让花生和红薯走进千家万户。
该研究完成了栽培花生的二倍体野生种A.duranensis和A.ipaensis的基因组测序,这对四倍体栽培种下一步的测序、分析、拼接具有重要参考价值。同时,野生种具有丰富的抗病、抗逆等优异基因资源,其测序的完成有助于深刻阐明花生的起源与进化,系统解析重要性状形成的分子基础,高效发掘控制重要农艺性状的功能基因,从而推动花生分子设计与聚合育种的开展对于增加花生产量、提高生产效益、保障食品安全、促进产业可持续发展等具有重要的理论价值和应用前景。
文献题目:The genome sequences of Arachis duranensis and Arachis ipaensis, the diploid ancestors of cultivated peanut
发表期刊:Nature Genetics
发表时间:2016年
影响因子:27.959
摘要介绍:
栽培花生(Arachis hypogaea),异源四倍体,由2个紧密相关的二倍体基因组经过杂交加倍形成,总基因组大小为2.7Gb。因栽培花生基因组庞大而复杂,使得组装到染色体水平非常具有挑战性。该研究报道了栽培花生的两个二倍体祖先种(Arachis duranensis 和 Arachis ipaensis)的基因组序列,为四倍体栽培花生基因组研究提供了基础。
研究结果表明,这两个二倍体祖先种基因组分别与栽培花生的A、B亚基因组相似,并能够用来鉴定候选的抗病基因、引导四倍体转录本的拼接和检测栽培花生亚基因组之间的基因交换。另外,基于A.ipaensis和栽培花生B亚基因组DNA的高度相似性和生物地理学证据表明,研究者推断A.ipaensis可能是与栽培花生B亚基因组供体相同群体的直接后代。
内容简析
研究问题:
1. 栽培花生四倍体的二倍体祖先种基因组结构特征和甲基化水平差异;
2. 祖先种通过杂交加倍形成栽培花生过程中,基因组层面经历了哪些变化;
3. 二倍体祖先种的进化以及与栽培种之间的分化时间推断;
4. 栽培花生四倍体转录本的组装;
5. 抗害虫、抗病基因的筛选和QTL定位。
研究方向:
1. 两个野生种花生de novo基因组学研究
2. 两个野生种花生DNA甲基化分析
3. 野生种、栽培种花生转录组分析
4. 野生种、栽培种花生比较基因组学分析
研究难点:
栽培花生为异源四倍体,基因组大且重复含量高,这使得直接组装栽培花生基因组非常具有挑战性。
研究亮点:
1. 该研究获得了栽培花生二倍体祖先种基因组序列,并在此基础上重构了获得的四倍体栽培花生转录本序列;
2. 该研究定位了野生花生种中抗害虫、抗病相关基因;
3. 该研究通过大量的比较分析,分析A. duranensis和A. ipaensis杂交加倍后形成四倍体栽培花生基因组进化的过程。找到了花生四倍体亚基因组之间存在基因交流的证据,并且分析发现重组都发生在花生四倍体A亚基因组;而花生四倍体B亚基因组与二倍体A. ipanensis DNA水平相似性很高,两者在大约9,300年前分开。
研究方法
研究对象:
1. 栽培花生的二倍体祖先 (Arachis duranensis 和 Arachis ipaensis);
2. 四倍体栽培花生 (Arachis hypogaea);
所用软件:
二倍体基因组组装:COPE、SOAP denovo v2.05、KGF、Gapcloser、SSPACE;
花生四倍体转录本分析:FastQC、Trim Galore! v0.3.5、Trinity、Bowtie、RSEM、GMAP、GSNAP、BLAST;
遗传图谱构建和组装结果检查:Mapmaker Macintosh 2.0、CLC Genomics Workbench、SAMtools、MadMapper、Carthagene;
假染色体连接:BLAST、ePCR (electronic PCR);
重复序列分析:RepeatMasker、LTR_FINDER、BLAST、CAP3、Biolayout、Gepard、Artemis、HMMER、SINE-Finder、MITE-Hunter;
基因预测和功能注释:MAKER-P流程(SNAP)、InterProScan、BLAST、AHRD;
基因复制分析:Muscle、HMMER;
抗病相关基因和NB-LRR编码基因分析:HMM、BLASTP、Excel;
基因组进化分析:DAGchainer、PAML (codeml)
染色体结构和共线性分析:CViT、MUMmer(mummer和mummerplot)、DAGChainer;
序列比较分析:MUMmer(nucmer,show-coords,show-tiling)、Excel;
花生RILs遗传交换分析:FASTX-Toolkit、Bowtie 2、BEDtools、SAMtools、R、Excel;
所用数据:
1. 两个二倍体祖先种的基因组测序数据(250Bp、500Bp、2Kb、5Kb、10Kb、20Kb以及40Kb);
2. 两个二倍体祖先种及栽培花生四倍体低深度Moleculo长读段数据;
3. 两个二倍体祖先种和栽培花生四倍体各自近亲杂交产生后代及亲本的GBS测序数据;
4. 两个二倍体祖先种的甲基化测序数据;
5. 两个二倍体祖先种和四倍体栽培花生转录组测序数据;
所用数据库:
1. Transposable element protein databases;
2. EST and NCBI;
3. SwissProt and TrEMBL databases;
4. SoyTEdb and Repbase library;
5. Protein databases(Including ProDom、PRINTS、 Pfam、 SMART、 PANTHER and PROSITE);
6. Food and Agriculture Organization Corporate Statistical Database (FAOSTAT);
7. Phytozome 10;
8. Natural Earth maps;
实验过程:
De novo样品信息:二倍体花生A. duranensis V14167和 A. ipaensis K30076用于基因组测序;A. duranensis K7988、A. ipaensis K30076和A. hypogaea cv. Tifrunner用于Moleculo建库测序;
遗传图谱:二倍体A基因组群体:A. duranensis K7988和A. stenosperma V10309杂交的F5代90个个体;二倍体B基因组群体: A. ipaensis KG30076和A. magna KG30097杂交的F6代94个个体。四倍体AB RIL群体是A. hypogaea cv. Runner IAC 886和秋水仙素诱导的A. ipanesis K30076与A. duranensis V14167四倍体杂交的F6代的89个个体。
转录组样品准备:二倍体花生(A. ipaensis和A. duranensis)叶(包括叶柄),茎、根、花、雌蕊柄等5个部位的样品提取RNA,反转录为cDNA。其中根组织提取于3月龄以上的植株,茎组织提取于3月龄以内的植株。
研究结果
研究成果:
1. 基因组测序和组装
(1) 对插入片段大小为250Bp、500Bp、2Kb、5Kb、10Kb和20Kb的文库以及fosmid方法构建的插入片段大小为40Kb文库进行双末端测序,read长度90-150Bp。共获得了A.duranensis的325.73 Gb的原始数据和A.ipaensis的416.59 Gb的原始数据,过滤低质量读段后,测序深度分别为154×和163×。
(2) 基于SOAPdenovo组装得到A.duranensis基因组大小为1,211Mb,A.ipaensis基因组大小为1,512Mb。基于遗传图谱数据,分别将A.duranensis 1,025Mb和A.ipaensis 1,338Mb序列各连接成10条假染色体。
2. 转座子分析
A.duranensis和A.ipaensis中转座元件(TE)分别占基因组的61.7%和68.5%,与已报道的栽培花生重复序列比例接近(64%)。两个物种基因组中大部分TE家族相同,但因转座子本身特性,他们的位置以及相对丰度不同。Ty3-gypsy和non-LTR中少数的家族丰度非常高,主要集中在中心粒区,这些家族包括FIDEL、Feral、Pipoka、Pipa,以及新发现的Apolo和Polo。总体来讲,每个基因组中LTR逆转录转座子占一半以上,而DNA转座子仅占10%。其中,两个基因组中7.8%和11.7%分别为长散在重复序列(LINE),是迄今为止植物基因组比例最高。
3. 基因注释和基因重复分析
基于MAKER2流程分别注释得到A.duranensis和A.ipaensis的36,734和41,840个高质量的编码基因。基于基因复制分析,结果提示A.ipaensis中基因数量比A. duranensis多主要因其发生局部复制事件,这些基因包括NB-ARC、leucine-rich repeat (LRR)、pentatricopeptide-repeat、kinase、WD40-repeat和kinesin蛋白。
4. DNA甲基化
基于MethylC-SEQ对A.duranensis和A.ipaensis进行DNA甲基化测序,分别得到189,653,337(~8.6×)和277,101,705(~10×)条唯一比对的reads。两个物种基因组甲基化水平相似,其中CHG位点(H是A,T或C)甲基化分别为57%和60%,CG位点甲基化分别为73%和75%,CHH位点甲基化分别为8%和6%。
5. 抗病相关的NB-LRR编码基因定位
Nucleotide-binding-leucine-rich repeat (NB-LRR)编码基因在抵御害虫和抗病中有重要作用。在A.duranensis和A.ipaensis中分别鉴定出345和397个NB-LRR编码基因。该家族基因大部分成簇排列在基因组上,如染色体2远端,染色体4短臂以及染色体9长臂上。基于QTL分析,抗性相关的基因定位于A. duranensis的染色体3的短臂末端,这其中就包括Aradu.Z87JB基因。
6. A.duranensis和A.ipaensis的物种进化和分化时间推断
分析表明,自5800万年前Dalbergioid 分支的物种分化后,花生积累的突变相对较快。A.duranensis和A.ipaensis的旁系同源基因KS值分别为0.95和0.90,相比较荷花(~0.65)、大豆(~0.65)和菜豆(~0.8),该值与苜蓿(~0.95)中KS更接近。根据A. duranensis和A. ipaensis直系同源基因的KS峰值在0.035以及花生的平均变化率为8.12×10-9 KS/年,推测这两个物种在大约216万年前分化。
7. 染色体结构和共线性分析
与细胞遗传学观察结果一致,大部分假染色体对称分布在近着丝粒两侧,且这两个物种中大部分的染色体为1:1的对应关系:两个物种染色体2、3、4和10为共线性关系,染色体5、6和9主要在一端发生大片段的倒置,染色体1则在两臂都有大的倒置。而染色体7和8发生复杂的重排,将富含重复序列的片段转至A基因组的7号染色体,而富含基因区片段则转至A基因组9号染色体上,使得A基因组的7号染色体仅有一端正常的染色体臂,而8号染色体异常的短,该结果与细胞学观察结果一致。A. ipaensis假染色体都比A. duranensis相应的染色体长度更长,一部分原因是因局部复制和转座子多。
点图结果显示,共线性的染色体中,A. duranensis 80%~90%的区域都相应的在A. ipaensis染色体上。而染色体臂有一端倒置的情况下,点图中出现不同的弧度,这些弧度是因染色体远端到中心粒附近的DNA丢失和获得的速率不同造成的。在染色体没有倒置区域、基因、重复序列和甲基化水平呈现梯度分布,且从中心粒区域到染色体末端呈下降趋势。然而,在A. duranensis中,经历过大面积的重组区域,这些规律则被打断。因此研究者推断主要重组都发生在A基因组中。相比较共线性的同源染色体,因大面积重排导致同源染色体长度差异更大。A. duranensis染色体倒置现象较预期小,该结果也支持,相比较DNA积累,DNA清除占主要。
8. 野生种花生和四倍体栽培花生的序列比较分析
(1) 二倍体假染色体与栽培花生连锁群基本上为一一对应的关系。在三张遗传图谱的标记分子中,分别有83%、83%和94%能匹配到假染色体上。将四倍体的2× Moleculo读段比对到二倍体假染色体上,结果显示,栽培花生与A. duranensis和A. ipaensis矫正后平均相似性分别为98.36%和99.96%。从下图6中可以看出,栽培花生A. hypogaea与二倍体B基因组较二倍体A基因组更为相似。
研究者进一步发现A. hypogaea A和B亚基因组有基因重组信号,与预期相符,这些信号在共线性的同源染色体中更为频繁。这种重组导致栽培种亚基因组与其相应二倍体基因组序列相似性降低。研究者发现栽培种Moleculo reads比对到A基因组共线性的假染色体序列相似性比比对有倒置的假染色体的相似性更低。这种趋势在B基因组整个染色体上较弱,但是还是能明显看出在共线性的B亚基因组染色体臂末端相似性大幅度的降低。
(2) 研究者推断A. duranensis和A. ipaensis大概在216万年前分开。A. duranensis V14167与栽培种A基因组大致24.7万年前分开,而A. ipaensis与栽培种B基因组大致9,400年前分开。
(3) 研究者进一步利用栽培种RILs群体估算A、B亚基因组的重组率,结果显示,大部分谱系A和B基因组相对剂量是相等的,与亲本相同,但RIL028这个谱系相对剂量在同源染色体区域急剧的改变(下图7,A基因组104-102Mb区域和B基因组112-126Mb区域)。比对到B基因组相对剂量几乎没有了,而比对到A基因组的相对剂量则急剧增加。这清楚的表明,栽培花生A和B基因组发生了基因交换,这在四体重组中可能出现,但也可能形成Holiday junction之后发生基因转换。
9. 二倍体基因组引导的四倍体转录组装
研究者通过三种策略和四种不同的软件对栽培花生转录本拼接并比较每种策略拼接得到的转录本准确性。这三种策略分别为:从头组装、分出属于A和B的数据集进行独立组装、将A、B假染色体进行整合后引导转录本拼接。将不同策略不同软件得到的转录本比对(无错配)回假染色体上百分比来评价组装结果的准确性。
结果显示从头组装策略得到的转录本准确性最低(32.17~39.82%),其次是分开组装(40.07~55.8%),最后是在基因组引导组装结果准确性最高(65.87%)。研究者进一步过滤掉转座元件、低表达的转录本以及去冗余,最终得到183,062个转录本,其中88,643(48.32%)属于A基因组,94,419(51.58%)属于B基因组。
图1 染色体假分子A01和B01的结构概述和比较
堆叠区域代表基因和转座元件在染色体上的分布。高重组率(热图中红色)区域集中在染色体末端。在点图中,发生倒置的区域形成了弧线,表明,自这两个物种分化之后的进化历程中,累积的DNA突变在染色体中心区域更多,而DNA清除则在染色体末端区域更加频繁。基因、DNA转座元件和Ty1-copia元件主要集中在染色体末端区域。Ty3-gypsy元件主要集中在染色体中心区域。
图2 A. duranensis和A. ipaensis染色体假分子
之间的关系
蓝色:基因密度;棕色:Ty3-gypsy元件和非自主LTR反转录转座子的密度;灰色标尺表示以兆为单位。
图3 突变和基因组重复
该图显示A. duranensis (Ad)、A. ipaensis (Ai) 和 Glycine max (Gm)的旁系同源基因和直系同源基因的同义突变(Ks)的分布。G.max-G.max比较中的峰值代表大豆在Ks=0.10(~10百万年)和Ks=0.65(58百万年)发生全基因组复制事件(WGD)。同样早期的蝶形科WGD同样影响了落花生属,因此A. duranensis–A. duranensis和A. ipaensis–A. ipaensis峰值(分别在Ks=0.90和0.95)的偏移表明花生属以快于大豆1.4倍的速度累积同义突变。基于花生属平均突变率为8.12x10-9Ks/年,研究者估计A. duranensis和 A. ipaensis在大约216万年前分开。
图4 染色体7和染色体8之间的重排示意图
重排产生了小片段且重复序列较少的染色体,如A. duranensis 8号假染色体、A. duranensis 7号假染色体上只有一部分正常的常染色质臂。共线性的染色体片段由相同的色块表示;Ty3-gypsy元件和非自主反转座元件的分布用灰色表示;从图中可以看出,A基因组8号染色体的重复序列比例低且重复序列高的区域(鼓起处)在染色体上部远端区。
图5 A和B基因组分歧之后的基因组区域反转示意图
灰色:基因密度
a: 倒置将重复序列高、基因密度的DNA转运到染色体远端区域,并将重复序列低且基因密度高的DNA转运至染色体中心的区域;
b: 在染色体远端区域,倒置的片段通过重组使DNA丢失,而染色体中心区域则获得DNA;
c: 在a和b的基础上形成了特征性弧(蓝色点)、不规则的基因、重复序序列和甲基化密度分布特征。发生这种不规则的模式表明所有主要基因组重组发生在A基因组上。
d: A05和B05的比较分析的点图显示特征弧。
图6 栽培花生与Arachis duranensis和Arachis ipaensis的假染色体比较结果示例
(a、b)中图显示的是栽培种Moleculo 读段比对到A05和B05的情况。蓝色点代表read比对到染色体的相似性百分比,红色代表0.5Mb滑窗内Moleculo碱基深度分布。结果显示,相比较比对上A基因组染色体5远端区域,比对中心区域的相似性分布更为一致。这可能反应栽培种A亚基因组与A. duranensis因重组导致序列相似性降低。而在B基因组上相似性更高且一致性好,除了染色体上端6.1 Mb的区域,该差异可能提示在这部分区域,栽培种的染色体倍型由AABB变为AAAA。
图7 栽培花生中亚基因组之间遗传交换的鉴定
上图提示RIL028中A04和B04之间发生重组的结果;下图提示RIL025中A04和B04之间没有发生重组的结果。Y轴表示比对密度,X轴表示比对的位置信息;滑窗为1Mb;从图中可以看出,在RIL028中,亚基因组的相对剂量在染色体下臂发生较大改变,该结果表明,A和B亚基因组间发生基因交换。
图8 A. duranensis、A. magna、A. ipaensis以及栽培花生A. hypogaea的起源地分布
【参考文献】
Bertioli DJ, et al: The genome sequences of Arachis duranensis and Arachis ipaensis, the diploid ancestors of cultivated peanut. Nat Genet 2016, 48(4):438-446.
【数据链接】(复制网址后使用浏览器打开)
转座元件蛋白质数据库:http://www.repeatmasker.org/RepeatProteinMask.html#database
Food and Agriculture Organization Corporate Statistical Database (FAOSTAT):http://faostat3.fao.org/home/
Arachis基因组相关测序数据及分析结果:http://peanutbase.org/download
MethylC-seq数据:Gene Expression Omnibus(GEO),登录号:GSE71357
撰稿:大项目部-尹立新、许莲
编辑:市场部
【近期热文】
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!